Classificação Automática de Textos por Período Literário Utilizando Compressão de Dados Através do PPM-C

نویسندگان

  • Bruno Barufaldi
  • Milton Marques Junior
  • Eduardo Freire Santana
  • JanKees van der Poel
  • José Rogério Bezerra Barbosa Filho
  • Leonardo Vidal Batista
چکیده

Métodos e técnicas para compressão de dados têm sido utilizados para o reconhecimento de padrões, incluindo a classificação automática de textos. A eficiência do método Prediction by Partial Matching (PPM) como classificador textual já foi comprovada em diversos trabalhos, entre eles a atribuição de autoria para textos em português. As classes utilizadas no processo de classificação não precisam ficar restringidas a apenas um autor. Ao incluir dois ou mais autores numa mesma classe podese definir um estilo literário. Esse trabalho objetiva a aplicação do modelo estatístico PPM-C para a classificação de textos dos períodos literários da literatura brasileira.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Uma abordagem de classificação automática para Tipo de Pergunta e Tipo de Resposta (An Automatic Approach for Classification of Question Type and Answer Type) [in Portuguese]

The question type classification and answer type classification are very important tasks for Question Answer Systems. This paper presents an automatic approach using machine learning for these tasks. We used decision trees as machine learning algorithm and 14 features developed using a tagger and a named entity systems. Resumo. A classificação de tipos de pergunta e tipo de resposta são tarefas...

متن کامل

Incorporação de representação vetorial distribuída de palavras e parágrafos na classificação de SMS SPAM

Resumo—A classificação automática de SMS spam é um problema desafiador, pois ao contrário de outros documentos (como e-mails, por exemplo), esses textos são extremamente curtos, com no máximo 140 caracteres. Além disso, eles normalmente são escritos utilizando gírias, abreviaturas e símbolos como emoticons. Técnicas de pré-processamento tem sido aplicadas para contornar esse problema, como o us...

متن کامل

Classificação de Prioridade de Tweets utilizando Máquinas de Vetor de Suporte (Tweet Priority Classification Using Support Vector Machines) [in Portuguese]

Resumo. Este artigo provê resultados iniciais sobre a tarefa de classificação automática de prioridade de tweets, como forma de amenizar a sobrecarga de informação sofrida por usuários do Twitter. Para tanto, aplicamos Máquinas de Vetor de Suporte a um extenso conjunto de exemplos contendo tweets manualmente classificados por nove usuários. Mostramos resultados promissores mesmo com a quantidad...

متن کامل

Extracção de Relações Semânticas de Textos em Português Explorando a DBpédia e a Wikipédia

A identificação de relações semânticas, expressas entre entidades mencionadas em textos, é um passo importante para a extracção automática de conhecimento a partir de grandes colecções de documentos, tais como a Web. Vários trabalhos anteriores abordaram esta tarefa para o caso da ĺıngua inglesa, usando técnicas de aprendizagem automática supervisionada para classificação de relações, sendo que...

متن کامل

Caracterização e Processamento de Expressões Temporais em Português

A dimensão temporal é um elemento estruturante fundamental para a informação veiculada em textos e constitui um desafio para o processamento de ĺıngua natural, sendo igualmente importante para muitas aplicações do processamento das ĺınguas. Este artigo constitui mais um passo para o ambicioso objectivo de tratamento da informação temporal. Para tal, apresenta-se uma proposta de classificação da...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:
  • Linguamática

دوره 2  شماره 

صفحات  -

تاریخ انتشار 2010